Analyse du jeu de données

Commençons par analyser le jeu de données qui nous a été fourni.

Ce jeu de données contient au total 7100 phrases étiquettées en 8 classes:

Répartition des données

La première observation étonnante se trouve dans la répartition des phrases dans les différentes classes. Sur la totalité du jeu de données, on compte 3852 phrases étiquettées dans la classe 'irrelevant', soit environ 6 fois plus que pour la classe 'purchase' qui est la classe qui contient le plus d'entrées après 'irrelevant' et 32 fois plus que la classe 'provide-showtimes' qui contient le moins d'entrée.

Nombre de mots

Lorsqu'on compte le nombre de mots par phrases, on constate que la majorité des phrases comptent moins de 15 mots.

En moyenne, les phrases dans chaque intent du jeu de données contiennent entre 10 et 15 mots. On note une exception pour la classe "irrelevant" qui semble contenir des phrases plus courtes en moyenne. Cette différence d'observation peut s'expliquer par le nombre plus important de phrases dans la classe irrelevant.

Analyse du modèle précédent

Etudions maintenant le modèle de nos prédécesseurs.

Matrice de confusion

80% des observations totales sont correctements prédites, c'est un résultat qui semble correct mais dont il faut se méfier dans la mesure où le jeux de données semble très déséquilibré.

86% de précision, indique un taux de faux positifs assez faible.

53% de rappel (ou sensibilité), donne le taux d'observations correctement étiquettées. On observe donc que presque la moitié des prédictions sont fausses. Ce résultats est fortement lié à une mauvaise classification des irrelevant, accentué par le très grand nombre d'éléments de cette classe.

Courbe ROC

Dans le cadre d'une classification multi-classe, nous avons choisi de réprésenter une courbe ROC par classe. Plus l'aire sous la courbe est grande, moins le classifieur fait d'erreurs, on peut observer les modifications de la sensibilité et de la spécificité en fonction des variations du seuil de chaque variable. Les seuils les plus intéressants correspondent au coin supérieur gauche de la figure. Ceci nous permet donc de définir une plage d'utilisation pour ce modèle. On peut estimer que la prédiction est satisfaisante au délà du seuil de 0.75. On pourrait éventuellement affiner ce seuil pour chaque variable.

Precision-Recall curve

L'aire sous les courbes de cette figure indique à la fois une précision et un rappel élevés. On peut ainsi observer des performances différentes selon les intents prédits